我们考虑大规模的马尔可夫决策过程(MDP),具有未知的成本函数,采用随机凸优化工具,以解决模仿学习的问题,包括从有限一套专家演示学习政策。我们采用学徒学习形式主义,这承担了假设真正的成本函数可以表示为一些已知功能的线性组合。现有的逆钢筋学习算法具有强烈的理论保证,但是计算得昂贵,因为它们使用强化学习或计划算法作为子程序。另一方面,最先进的政策梯度基于基于梯度的算法(如IM-Conifforce,IM-TRPO和Gail),在具有挑战性的基准任务中实现了重大的经验成功,但在理论方面并不顺利。强调绩效的非渐近保证,我们提出了一种方法,即通过将问题作为占用措施的单个凸优化问题的问题绕过学习成本函数的中间步骤,提出了一种从专家演示中绕过策略的方法。我们开发了一种计算高效的算法,并在提取的策略的质量上导出了高信心遗憾,利用随机凸优化的结果以及近似线性编程的近似有效,用于解决前向MDP。
translated by 谷歌翻译